Содержание
Введение 4
Глава I. Порядок слов в естественных языках 6
I.1 Типология порядка слов 6
I.2 Профиль порядка слов 12
Выводы по главе I 17
Глава II. Грамматические трансформации в статистическом машинном переводе 18
II.1 Грамматические трансформации в статистическом машинном переводе по фразам 19
II.1.1 Ограничения на перестановки в PSMT 22
II.1.2 Целевые функции перестановок в PSMT 25
II.1.3 Другие подходы основанные на строках 27
II.2. Грамматические трансформации в статистическом машинном переводе по деревьям 28
II.2.1 Статистический машинный перевод основанный на иерархических фразах 29
II.2.2 Статистический машинный перевод основанный на деревьях небольшой глубины 32
II.3 Грамматические трансформации как часть пре- или постпроцессинга 33
II.4 Методики оценивания качества перестановок 36
Выводы по главе II 42
Глава III. Построение системы статистического машинного перевода 44
III.1 Подготовка системы к работе 45
III.2 Тестовый набор предложений 47
III.3 Оценка качества грамматических трансформаций 48
III.4 Интерпретация результатов 52
Выводы по главе III 54
Заключение 56
Список использованной литературы 58

Работа № 4106. Это ОЗНАКОМИТЕЛЬНАЯ ВЕРСИЯ работы, цена оригинала 1000 рублей. Оформлен в программе Microsoft Word.

Оплата. Контакты

Введение
Главной языковой задачей в процессе становления мирового информационного общества является обеспечение свободной коммуникации между носителями разных языковых культур. На решение этой задачи в настоящий момент направлены многие области прикладной лингвистики в том числе и машинный перевод. Одним из самых перспективных и быстроразвивающихся современных методов машинного перевода считается статистический машинный перевод и данная работа посвящена его трансформационной составляющей — важнейшему нюансу переводческого процесса.
Объектом изучения в рамках данной работы является статистический машинный перевод а предметом — грамматические трансформации совершаемые в процессе статистического машинного перевода. Целью работы является создание системы статистического машинного перевода работающей с языковой парой английский-французский моделирование грамматических трансформаций в рамках этой системы а также оценка эффективности используемых методов перестановок. Для достижения вышеозначенной цели были поставлены следующие задачи
1. Ознакомление с существующими в рамках современной лингвистической науки типологиями порядка слов и характеристиками составляющими профиль порядка слов естественного языка
2. Исследование моделей перестановки слов как неотъемлемого компонента системы машинного перевода в рамках статистического подхода
3. Изучение методик оценки качества моделирования грамматических трансформаций
4. Реализация модели грамматических трансформаций в рамках системы статистического машинного перевода
5. Оценка эффективности работы данной модели.
Теоретической базой для данной работы послужили классическая работа Дж. Гринберга Некоторые грамматические универсалии преимущественно касающиеся порядка значимых элементов работы Драйера в частности On the six-way word order typology 1997 и Word Order 2007 а также Всемирный атлас языковых структур. В области моделирования грамматических трансформаций данная работа базируется на исследованиях грамматических трансформаций А. Бисазза и М. Федерико 2013 2015 работе Statistical machine translation Ф. Коэна 2010 а также трудах А. Бёрч 2005–2011.
Структура данной работы подчиняется дедуктивному методу исследования. Во введении устанавливаются объект и предмет исследования а также формулируются цели и задачи поставленные в данной работе. Первая глава являет собой краткий обзор принятых в лингвистической науке типологий порядка слов в ней также рассматриваются методы количественного оценивания различий в порядке слов для выбранной языковой пары. Вторая глава посвящена более глубокому изучению существующих моделей грамматических трансформаций в статистическом машинном переводе. В ней также даётся характеристика методов оценивания качества перестановок слов. В третьей главе приводится описание эксперимента по созданию системы статистического машинного перевода работающей с языковой парой английский-французский и проводится оценка работы алгоритмов грамматических трансформаций по описанным во второй главе методикам. В заключении подводится итог проведённой работы и обобщаются результаты данного исследования.
Глава I. Порядок слов в естественных языках
Одним из важнейших этапов перевода с одного языка на другой является изменение порядка слов. В отечественной лингвистике за этим явлением укрепилось название грамматические трансформации в англоязычной литературе используются термины word reordering и distortion [Koehn 2010]. Понимание сложности грамматических перестановок для каждой отдельно взятой языковой пары является ключевым звеном в построении систем статистического машинного перевода. В рамках статистического машинного перевода феномен перестановки слов подвергается в основном анализу и моделированию с математической точки зрения. Тем не менее для понимания процессов происходящих на уровне структуры предложения при переводе необходимо привлекать такое основополагающее свойство исходного и целевого языков как характерный для них порядок слов.
I.1 Типология порядка слов
Как известно порядок слов является неотъемлемой характеристикой грамматической структуры предложения любого естественного языка. Словарь лингвистических терминов Т.В. Жеребило определяет порядок слов как типичное относительное расположение словоформ в их определенных функциях – подлежащего сказуемого и т.п. [Жеребило 2010]. В лингвистической науке под порядком слов обычно понимают взаиморасположение трех основных членов предложения — сказуемого V verb и его основных актантов подлежащего S subject и дополнения O object.
Классической работой по типологии порядка слов в которой отражены основные её положения является работа Джозефа Гринберга Некоторые грамматические универсалии преимущественно касающиеся порядка значимых элементов впервые опубликованная в 1963 году. В данной работе представлен список из 45 универсалий явлений свойственных всем или подавляющему большинству естественных языков составленных на материале 30 языков. В соответствии с взаимным расположением подлежащего сказуемого и прямого дополнения Гринберг выделил шесть типов порядка слов
• SOV. Наиболее распространённый тип порядка слов представленный такими языками как например японский корейский и хинди. В Европе данный тип порядка слов встречается редко и представлен в основном турецким баскским и татарским языками. По данным Всемирного атласа языковых структур из 1377 рассмотренных в нём языков к данному типу относятся 565 то есть более 40%.
• SVO. Данный тип широко представлен среди европейских языков. К нему относятся 488 языков среди которых русский украинский английский финский и т.д. Как отмечает Джаред Даймонд в книге The rise and fall of the third chimpanzee [Diamond 1991] распространённость такого порядка слов в креольских языках возможно свидетельствует о том что он от природы свойственен человеческой психологии поскольку внимание стороннего наблюдателя естественным образом переходит от субъекта совершающего действие через само действие на его объект.
• VSO. Данный тип представлен 95 языками в частности кельтской группой на европейском континенте. Другими примерами этого типа могут служить масайский язык гавайский язык и литературный арабский язык.
• VOS. Этот тип порядка слов представлен 25 языками среди которых языки вари тоба и кирибати. Данный тип встречается в Америке Океании на острове Мадагаскар а также на Малайском архипелаге.
• OVS. К подобному типу относятся 11 языков к примеру языки кубео Колумбия и хишкарьяна Бразилия.
• OSV. Во Всемирном атласе языковых структур данный тип представлен всего четырьмя языками кве Южная Африка надеб Бразилия тобати Индонезия и вик-нгатан Австралия.
По подсчётам американского лингвиста Джона А. Хокинса [Hawkins 1983 с. 22] 25 универсалий из списка Гринберга так или иначе относятся к порядку слов. Многие из универсалий постулированных в данной работе выдержали проверку временем и подтверждаются в современных исследованиях на материале всё большего количества языков. В качестве примера таких универсалий можно привести следующую
• Универсалия 1. В повествовательных предложениях с именными субъектом и объектом почти всегда преобладает порядок слов при котором субъект предшествует объекту [Цит. по Новое в лингвистике вып. 5 1970 с. 114–162].
Актуальность данного утверждения доказана в работах таких выдающихся лингвистов как Маллинсон и Блейк Хокинс Томлин и Драйер. Заслугой Гринберга можно считать не только тот факт что он впервые обратил внимание на порядок слов как объект лингвистического исследования что впоследствии выросло в самый многообещающий и продуктивный раздел лингвистической типологии но и то что на материале всего 30 языков он сумел уловить связь между кажущимися независимыми друг от друга особенностями порядка слов в различных языках. Например следующие универсалии сводят различные явления касающиеся порядка слов к одному общему принципу
• Универсалия 2. В языках с предлогами генитив почти всегда следует за управляющим существительным тогда как в языках с послелогами он почти всегда предшествует ему.
• Универсалия 3. Языки с доминирующим порядком VSO характеризуются наличием предлогов.
• Универсалия 4. С вероятностью гораздо большей чем случайная языки с нормальным порядком SOV имеют послелоги [там же].
В приведённых выше универсалиях наличие и характер прилогов объясняется различием в порядке слов на уровне клауз в то время как положением прилогов определяется взаимное расположение управляющего существительного и генитива.
Ещё одна важная особенность работы Гринберга заключается в том что он попытался провести параллели между порядком слов в клаузе и характерными особенностями морфемики языка тем самым расширяя область исследования типологии порядка слов. Это можно проиллюстрировать следующим утверждением
• Универсалия 27. Если язык исключительно суффиксальный то это язык с послелогами если язык исключительно префиксальный то это язык с предлогами [там же].
Наконец последней ключевой особенностью рассматриваемой работы является то что Гринберг в первой же универсалии постулирует следующее
• Универсалия 1. В повествовательных предложениях с именными субъектом и объектом почти всегда преобладает порядок слов при котором субъект предшествует объекту [там же].
Таким образом фактически в работе исследуются три основных типа порядка слов VSO SVO и SOV. Порядок же слов при котором объект предшествует субъекту Гринберг отмечает как встречающийся исключительно редко. Основные типы порядка слов он обозначает как I II и III где римская цифра отражает позицию глагола относительно подлежащего и прямого дополнения. В дальнейшем эта идея получила развитие в работах Уинфреда Леманна и Тео Феннеманна которые попытались свести разделение на три основных типа порядка слов к дихотомии OV – VO.
Основываясь на работе Гринберга в частности на универсалиях касающихся основного порядка слов Уинфред Леманн выдвинул предположение о том что в качестве первичной синтаксической конструкции следует рассматривать сказуемое и прямое дополнение поскольку они тесно связаны в рамках предложения. Свою теорию он назвал фундаментальным принципом размещения Fundamental Principle of Placement FPP [Lehmann 1973] который заключается в следующем знание того к какому типу — OV или VO — относится рассматриваемый язык позволяет сделать выводы о расположении в этом языке приглагольных и приименных элементов относительно глагольного сказуемого и прямого дополнения соответственно. Так в языках типа OV отрицание каузация рефлексивные и реципрокальные конструкции располагаются справа от глагола а определения и относительные конструкции в свою очередь располагаются слева от определяемого существительного. Обратное справедливо для языков типа VO — приглагольные элементы размещаются слева от глагола приименые — справа от прямого дополнения. Важной особенностью FPP является то что он позволяет делать предположения о размещении не только синтаксических элементов но также и аффиксов [Lehmann 1978].
Несмотря на очевидную простоту фундаментальный принцип размещения Леманна оперировал некоторыми закономерностями выведенными Гринбергом но не предоставлял им никакого объяснения. Попытка объяснить с позиций категориальной аналогии закономерности найденные Гринбергом была предпринята Тео Феннеманном в работе 1974 года Analogy in generative grammar the origin of word order [Vennemann 1974]. Феннеманн разделил синтаксические элементы на операнды сказуемое и прямое дополнение и операторы приглагольные и приименные элементы и на основании этого постулировал что в естественных языках операторы и операнды имеют устойчивую тенденцию к нахождению в определённом порядке
Данное явление Феннеман назвал принципом естественной сериализации Principle of Natural Serialization PNS. Несмотря на то что в нём учитывались почти все положения работы Гринберга статус некоторых грамматических категорий вызывал споры среди лингвистического сообщества. Так Леманн [Lehmann 1978] относил вспомогательный глагол к приглагольным элементам а следовательно к операторам в то время как в теории операторов-операндов Феннеманна он относится к операндам. Кроме того теорию Феннеманна критиковали за то что разделение на основные члены предложения теряет своё конституирующее значение и принцип работы PNS в конечном счете сводится к делению членов предложения на операторы и операнды.
Мэттью С. Драйер в работе 1997 года On the six-way of word order typology [Dryer 1997] предпринял попытку обобщить шесть типов порядка слов выделенных Гринбергом по позиции в них глагола основываясь на двух параметрах
• взаимное расположение подлежащего и сказуемого SV – VS
• взаимное расположение сказуемого и прямого дополнения VO – OV
Группа включающая в себя выделенные Гринбергом типы VSO и VOS получила название v-initial SVO и редко встречающийся тип OVS были объединены в группу v-medial а типы SOV и OSV слились в группу v-final. В пользу такого разделения говорят сразу несколько фактов во-первых в рамках одной группы универсалии предсказанные Гринбергом для одного типа порядка слов верны и для другого во-вторых типы порядка слов VSO и VOS встречаются в генетически и географически близких языках что даёт основание для выделения их в отдельную группу наконец в-третьих разделение связи субъекта с предикатом и объекта с предикатом делает классификацию более гибкой. Последовательно применяя гринберговские универсалии к современным методикам анализа информации касающейся порядка слов в различных языках мира и задавая новые классификационные критерии Драйер [Dryer 2007] вводит такое понятие как профиль порядка слов.
I.2 Профиль порядка слов
Профиль порядка слов для языка определяется порядком в котором следуют непосредственные составляющие фразы. Базовый порядок составляющих может быть установлен в соответствии с частотой встречаемости в данном языке базовым порядком признаётся наиболее часто встречающийся или стилистической маркированностью в этом случае наиболее нейтральный порядок следует признать базовым [Dryer 2007]. Несмотря на то что многие языки характеризуются свободным порядком слов в любом языке по тому или иному критерию за редким исключением можно выделить основной порядок слов. Исключением к примеру является сочетание существительного и зависимой от него генитивной конструкции в английском языке ср. the eye of the tiger и the tiger’s eye.
Драйер [там же] выделяет 13 ключевых особенностей которые характеризуют порядок слов в конкретном языке. Их можно разделить на две категории по тому на каком уровне они проявляются особенности проявляющиеся на уровне словосочетания phrase и особенности проявляющиеся на уровне предложения clause.
Особенности порядка слов проявляющиеся на уровне словосочетания в скобках указан код соответствующей характеристики во Всемирном атласе языковых структур
• преимущественное использование предлогов или послелогов NounAdposition 85A
• порядок существительного и зависимой от него генитивной или посессивной конструкции NounGenitive 86A
• порядок прилагательного и определяемого существительного NounAdjective 87A
• позиция указательного местоимения или аффикса относительно главного слова NounDemonstrative 88A
• взаимное расположение существительного и количественного числительного NounNumeral 89A
• позиция наречия степени относительно прилагательного AdjectiveDegreeW 91A.
Особенности порядка слов проявляющиеся на уровне предложения
• позиция косвенного дополнения по отношению к глаголу ObliquePhrase 84A.
• взаимное расположение существительного и придаточной определительной клаузы NounRelClause 90A
• взаимное расположение союзного наречия и подчиненного предложения SubordinatorClause 94A
• позиция вопросной частицы в вопросах на данет PolarQuest.Particle 92A
• позиция относительного союзного слова в предложении ContentQuest.Phrase 93A
• позиция отрицательной частицы относительно глагола NegationVerb 143A.
Основываясь на вышеперечисленных признаках можно составить профиль порядка слов для любого языка. В таблице 1.1 даны профили порядка слов для английского французского немецкого русского арабского и китайского языков. Данные полученные из этой таблицы могут быть
Таблица 1.1 Профиль порядка слов для некоторых языков
использованы для решения проблем связанных с грамматическими трансформациями в процессе статистического машинного перевода поскольку совершенно очевидно что характеристики перестановки слов используемые в системах машинного перевода напрямую зависят от особенностей синтаксического строения фраз исходного и целевого языков. Так для определения необходимых параметров модели перестановок в статистическом машинном переводе вводятся коэффициенты различий на уровне словосочетаний и предложений — Pdiff и Cdiff соответственно [Bisazza Federico 2015]. Коэффициенты Pdiff и Cdiff для языковой пары можно вычислить исходя из данных таблицы 1.1 в случае если показатели по одному критерию расходятся коэффициент увеличивается на единицу если же они совпадают частично то коэффициент увеличивается на 05. Вычислим коэффициенты для пары английский-французский
• Базовый порядок слов совпадает
• Pdiff 15. Определения во французском языке за редким исключением находятся в постпозиции к определяемому существительному в то время как в английском языке они всегда предшествуют ему. Кроме того наблюдается вариативность английского языка в положении генитивной конструкции относительно существительного.
• Cdiff 05. Единственное отличие на уровне предложения в рассматриваемой языковой паре наблюдается в позиции отрицательной частицы относительно глагола двойное отрицание во французском языке.
Исходя из вышеизложенных показателей выбирается подходящая статистическая модель описывающая грамматические трансформации в процессе статистического машинного перевода. Хорошим показателем производительности системы статистического машинного перевода является среднее количество слов подвергаемых перестановке в отдельно взятой языковой паре. Исследователи Бёрч Осборн и Коэн выделяют три фактора которые влияют на этот показатель собственно числовые коэффициенты перестановок Cdiff и Pdiff сложность морфологии каждого языка из пары и их генеалогическое родство [Birch Osborne Koehn 2008]. Как выяснилось в ходе исследования именно первый фактор имел высокую степень корреляции с коэффициентом качества машинного перевода который высчитывается по алгоритму BLEU Bilingual Evaluation Understudy. В качестве материала для исследования Бёрч Осборн и Коэн выбрали стандартную систему статистического машинного перевода основанного на фразах и выборку из 110 пар европейских языков.
В работе 2009 года Metrics for MT evaluation evaluating reordering Бёрч Блансом и Осборн анализируют то насколько хорошо различные подходы к статистическому машинному переводу моделируют ширину интервала перестановок [Birch Blunsom Osborne 2009]. Они приходят к выводу что модель статистического машинного перевода по фразам больше подходит для языков в которых большая часть перестановок совершается в пределах небольшого интервала например как в паре французский-английский в то время как для языковых пар в которых основные перестановки слов происходят на среднем интервале например китайский-английский больше подходит модель статистического перевода по иерархическим фразам.
Выводы по главе I
Изменение порядка слов в процессе перевода является объектом интереса для исследователей из двух различных областей лингвистики лингвистической типологии и автоматической обработки естественного языка точнее его раздела — машинного перевода.
Рассматривая исследования касающиеся роли порядка слов в процессе перевода в ретроспективе можно с уверенностью сказать что до современного периода в развитии лингвистической науки то есть периода характеризующегося главенством квантитативного подхода они в основном подвергались анализу с качественной точки зрения то есть как некоторые характерные для перевода в рамках конкретной языковой пары перестановки. В частности в классической работе Дж. Гринберга Некоторые языковые универсалии преимущественно касающиеся порядка слов 1963 порядок в котором следуют ключевые элементы предложения является лишь качественной характеристикой того или иного языка служащей основанием для его классификации. Более поздние работы У. Леманна 1973 1978 и Т. Феннеманна 1974 также не предполагают никакой связи между различиями в порядке слов и грамматическими трансформациями осуществляемыми при переводе. Ключевой особенностью работ по исследованию грамматических трансформаций того периода является то что они не привлекали никаких количественных метрик для описания исследуемого языка. В этом ряду выделяются работы М. Драйера 1997 2007 который первым предпринял попытку упорядочить данные различия по уровню на котором они проявляются и ввёл в лингвистическую типологию понятие профиля порядка слов.
Имплементация теоретических знаний о порядке слов и его изменении в процессе перевода сыграла важную роль в становлении статистического подхода к машинному переводу и автоматической обработке естественного языка в целом. Исследования А. Бёрч П. Блансома Ф. Коэна и М. Осборна вывели зависимость качества статистического машинного перевода от некоторых числовых коэффициентов отражающих различия порядка слов в выбранной языковой паре. Очевидно что выбор метода статистического машинного перевода применяемого в системе перевода работающей с определённой языковой парой обуславливается именно типологическими различиями между выбранными языками.

Advertisement
Узнайте стоимость Online
  • Тип работы
  • Часть диплома
  • Дипломная работа
  • Курсовая работа
  • Контрольная работа
  • Решение задач
  • Реферат
  • Научно - исследовательская работа
  • Отчет по практике
  • Ответы на билеты
  • Тест/экзамен online
  • Монография
  • Эссе
  • Доклад
  • Компьютерный набор текста
  • Компьютерный чертеж
  • Рецензия
  • Перевод
  • Репетитор
  • Бизнес-план
  • Конспекты
  • Проверка качества
  • Единоразовая консультация
  • Аспирантский реферат
  • Магистерская работа
  • Научная статья
  • Научный труд
  • Техническая редакция текста
  • Чертеж от руки
  • Диаграммы, таблицы
  • Презентация к защите
  • Тезисный план
  • Речь к диплому
  • Доработка заказа клиента
  • Отзыв на диплом
  • Публикация статьи в ВАК
  • Публикация статьи в Scopus
  • Дипломная работа MBA
  • Повышение оригинальности
  • Копирайтинг
  • Другое
Прикрепить файл
Рассчитать стоимость

Глава II. Грамматические трансформации в статистическом машинном переводе
Принципиальное различие порядка слов в отдельно взятой языковой паре известное также как проблема грамматических трансформаций в статистическом машинном переводе является серьёзной проблемой прикладной лингвистики в её нынешнем состоянии. Изменение порядка слов может происходить как в рамках пре- или пост-процессинга так и в процессе декодирования. В настоящее время существует три подхода к рассмотрению этой проблемы
1. Грамматические трансформации являются проблемой классификации и для корректной работы требуют обучения на примерах [Koehn et al. 2007].
2. Грамматические трансформации являются проблемой декодирования и требуют особой языковой модели которая включала бы в себя единицы как исходного так и целевого языков [Mariño et al. 2006].
3. Проблема грамматических трансформаций нерешаема без привлечения эвристических алгоритмов [Feng et al. 2012].
II.1 Грамматические трансформации в статистическом машинном переводе по фразам
В настоящее время перевод по фразам phrase-based statistical machine translation PSMT является доминирующим подходом в рамках статистического машинного перевода представляющего строку в качестве единицы перевода. В процессе становления этот подход сумел преодолеть проблемы характерные для раннего этапа развития статистического машинного перевода во-первых в процессе перевода начали учитываться грамматические связи между находящимися рядом словами во-вторых PSMT перешёл от использования порождающих моделей к более прогрессивным дискриминативным что позволило избавиться от искусственности порождаемых предложений навязанных принципами генеративной грамматики Хомского. В упрощённом варианте статистический машинный перевод являет собой процесс декодирования и состоит в следующем для каждого предложения исходного языка f ищется соответствующее ему наиболее вероятное предложение целевого языка e путём проверки гипотезы набором целевых функций
где b — это скрытая переменная представляющая выравнивание предложений e и f на уровне фразы — R произвольно взятых целевых функций а — соответствующие им веса. В настоящее время в PSMT применяются следующие целевые функции модели перевода на уровнях слов и фраз n-граммная модель целевого языка штраф за искажения штраф за количество фраз штраф за длину предложения целевого языка а также другие особенности характерные для каждой отдельной системы перевода например модель перестановок.
Процесс поиска описанный формулой 2.1 определяется целевой строкой e которая построена слева направо а также переменной выравнивания b которая отвечает как за сегментацию так и за изменение порядка слов в исходной фразе. Это можно выразить следующей формулой
где I1…II — последовательные интервалы разбиения фразы целевого языка а J1…JI — соответствующие им но необязательно последовательные интервалы разбиения фразы исходного языка.
Для того чтобы увеличить эффективность поиска необходимо чтобы каждая целевая функция в пределе была разложима до некоторой марковской зависимости. Целевая функция перестановок например традиционно следует следующей формуле [Bisazza Federico 2015]
где — обобщение для исходной подстроки f охватывающей интервал JI а — обобщение для целевой подстроки e охватывающей интервал II.
Исходя из предположения что между фразами исходного и целевого языка существует взаимно однозначное соответствие можно дать следующее определение грамматическим трансформациям в PSMT это поиск осуществляемый по множеству перестановок исходных фраз [там же]. Таким образом осуществление грамматических трансформаций в PSMT сводится к двум задачам определение набора допустимых перестановок в b или ограничения на перестановки и вычисление допустимых перестановок в виде целевой функции или модели перестановок.
Простейшим примером целевой функции перестановок может служить штраф за искажения
Вычисляемый по формуле 2.4 штраф приписывает нулевую стоимость гипотезе сохраняющей порядок слов исходной фразы или иными словами снижает монотонность перевода.
Неоспоримым достоинством использования фраз в качестве единиц перевода является то что это позволяет решить проблему перевода неоднозначных слов и установления неоднозначных связей между словами. Кроме того PSMT делает возможным обработку большей части грамматических трансформаций в пределах фразы intra-phrase reordering. С другой стороны данный метод статистического машинного перевода не предоставляет возможности осуществлять грамматические трансформации между фразами inter-phrase reordering.
II.1.1 Ограничения на перестановки в PSMT
Поскольку поиск по множеству всех возможных переводов отдельной фразы был бы NP-полной задачей [Knight 1990] а следовательно выполнение его в рамках системы машинного перевода было бы непрактичным декодеры в системах статистического машинного перевода как правило используют эвристические алгоритмы поиска на продуктивной части поискового пространства. Эффективным способом уменьшить число рассматриваемых перестановок является введение ограничения искажений distortion limit DL накладываемого на искажение D между последовательно переведёнными фразами
Иными словами ограничение искажений позволяет декодеру пропускать k слов от последней переведённой фразы. Во избежание пропусков в переводе ограничение искажений обязательно сопровождается ограничением на пропуски которое проверяет что самая первая непереведённая фраза обозначим её l будет доступна для перевода после обработки следующей фразы. Таким образом разрыв между новым интервалом входной фразы Ji и l не должен превышать DL
Ограничения на перестановки не только повышают эффективность работы системы позволяя свести сложность декодирования до линейной но и снимают проблему недостаточной дискриминативности современных моделей статистического машинного перевода.
Исторически первые решения по ограничению перестановок слов во фразе были разработаны для моделей статистического машинного перевода по словам IBM [Berger et al. 1996 Zens Ney 2003]
• Максимальный пропуск max skip MS на каждом шаге декодирования переводится одна из первых k непереведенных позиций. Таким образом перевод ограниченного числа слов не более k может быть отложен на неопределённый срок
• Инвертированный пропуск inverted skip IS на каждом этапе декодирования проводится проверка количества переведённых слов во фразе исходного языка после первой пропущенной позиции j. Если их меньше чем k-1 то система переводит любое пропущенное слово в противном случае она переводит j-тое слово.
Таблица 2.1
Количество перестановок тыс
В таблице 2.1 приведено сравнение числа возможных перестановок для предложения состоящего из десяти слов в зависимости от значения k и выбранного метода ограничения перестановок. Можно заметить что хотя в обоих случаях число перестановок растёт экспоненциально в целом метод DL существенно лучше справляется с ограничением числа возможных перестановок для k существенно меньшего чем общая длина предложения. Так в движке Moses предназначенном для конструирования систем статистического машинного перевода по фразам по умолчанию используется метод DL в пределах шести слов поскольку считается что именно такая конфигурация особенно удачно работает с большинством языковых пар [Koehn et al. 2007].
Вариант ограничения перестановок для языковой пары английский-немецкий основанный на решениях IBM был предложен Тиллманном и Неем [Tillmann Ney 2003]. Его особенность заключается в том что декодер запоминает информацию о состоянии перестановки таким образом что любая трансформационная операция skip или move может быть начата только после того как будет закончена предыдущая. Это позволяет с учётом особенностей грамматик английского и немецкого языков корректно трансформировать немецкое сказуемое в английское. Тем не менее недостатком данного решения является то что оно не учитывает положение глагола относительно других слов во входном предложении.
Ещё один вариант ограничения перестановок получил название инверсивной трансдукционной грамматики ITG. Такой тип грамматики допускает только перестановки сгенерированные рекурсивной сменой мест соседних блоков слов. Применение ограничений ITG в декодерах PSMT выстраивающих предложение слева направо сложнее чем применение ограничений основанных на расстоянии между словами и требует парсера с восходящим синтаксическим анализом.
Существующие ограничения на перестановки никак не затрагивают контекст переводимого слова вне зависимости от того базируется ли алгоритм на расстояниях между словами модели IBM Moses или на схемах перестановок пропуск фраз ITG. Результатом этого является очень грубое определение поиска места для трансформаций что в свою очередь порождает проблемы перевода в языковых парах с кардинально разной синтаксической структурой. Для решения этой проблемы можно разделить перестановки на локальные и глобальные разбивая входное предложение на части которые могут произвольно подвергаться перестановкам но содержание которых при этом переводится монотонно [Yahyaei Monz 2010].
Для определения границ частей используется классификатор по методу максимальной энтропией результат его работы интегрируется в модифицированный PSMT-декодер который одновременно осуществляет перевод и разбиение на части. Развитие эта идея получила в [Bisazza Federico 2013] где авторы предложили накладывать ослабленные ограничения на декодирование с перестановками но рассматривать при этом только те перестановки на большом интервале которые наиболее вероятны для данной модели. Подобное упрощение перестановок уже на ранней стадии позволяет системе PSMT определять длинные перестановки без падения эффективности работы системы.
Синтаксическое дерево входного предложения также может быть использовано для ограничения перестановки слов по принципу синтаксической связи в PSMT в случае если часть поддерева переведена то все слова в этом поддереве должны быть переведены до продолжения процесса перевода вне поддерева. Интегрирование этих ограничений в процесс декодирования и использование количества нарушений в качестве целевой функции может значительно улучшить качество перевода [Bach Vogel Cherry 2009].
II.1.2 Целевые функции перестановок в PSMT
Основным способом выбора продуктивных перестановок в процессе статистического машинного перевода является n-граммное моделирование целевого языка путём выстраивания переведённых слов исходного языка в различном порядке. Тем не менее ограниченность языковых моделей в статистическом машинном переводе в пределах четырёх-пяти слов не позволяет моделировать грамматические трансформации на средних и больших интервалах. В настоящее время наряду со штрафом за искажения формула 2.4 используются более совершенные модели перестановок которые можно разделить на три большие группы
1. Модели фразовой ориентации известные также как лексикализованные модели перестановок предсказывают ориентацию переводимой фразы исходного языка на основании предыдущей переведённой фразы приписывая ей одну из трёх возможных характеристик см. рис. 2.1 monotone дословный перевод swap замена или discontinuous в некоторых вариантах встречается разделение на discontinuous left и discontinuous right в этом случае общее направление перевода сохраняется однако перестановки нарушают его непрерывность [Koehn et al. 2005]. Вероятности в этой модели высчитывается по следующей формуле
Недостатком этого класса моделей является плохая производительность при неполных входных данных и неадекватное воспроизведение в процессе перевода грамматических структур в силу того что они недостаточно хорошо дискриминируют длину прыжка. Тем не менее в силу своей простоты они широко используются в системах машинного перевода. Для преодоления проблем связанных с недостатком данных и повышения эффективности системы в рамках PSMT проводятся эксперименты по разделению слов на классы [Och 1999] или приписыванию первому и последнему слову во фразе принадлежности к части речи [Nagata et al. 2006].
2. Прыжковые модели jump models решают проблемы перестановок слов на длинные интервалы путём предсказывания направления и длины прыжка который требуется для перехода между последовательно переводимыми словами. Вероятность возможного прыжка между словами моделируется на основании последнего переведённого слова outbound model слова которое нужно перевести inbound model или же высчитывается для обоих слов pairwise model [Al-Onaizan Papineni 2006].
3. Модели последовательности декодирования источника предсказывают которое из слов входной фразы с большей вероятностью будет обработано на данном шаге алгоритма перевода и являют собой сглаженные n-граммные модели обученные на корпусе фраз исходного языка так что они репрезентируют грамматическую структуру предложения целевого языка [Feng Mauser Ney 2010].
II.1.3 Другие подходы основанные на строках
N-граммные системы статистического машинного перевода являются одной из главных альтернатив PSMT. В рамках этого подхода используются сглаженные n-граммные модели которые обучаются на последовательностях минимальных единиц перевода tuples зачастую совпадающих со словосочетаниями [Mariño et al. 2006]. Процесс грамматических трансформаций представлен как развёртывание минимальных единиц перевода при обучении модели слова исходного языка представлены в порядке воспроизводящем словосочетания целевого языка что позволяет системе выделить из фразы минимальные единицы перевода. Недостатком этого подхода является то что грамматические трансформации в значительной степени отделены от процесса декодирования и базируются только на лингвистической информации получаемой от целевого языка.
Дискретные PSMT сочетают в себе эффективность подхода к декодированию основанном на строках и способность иерархических систем статистического машинного перевода к обобщению грамматических структур [Galley Manning 2010]. В рамках дискретных PSMT промежуток между переводимыми единицами может быть как переменным [там же] так и фиксированным [Simard et al. 2005] что позволяет системе использовать более гибкие а следовательно более эффективные схемы перестановок.
II.2. Грамматические трансформации в статистическом машинном переводе по деревьям
Изменение порядка слов в естественных языках как правило связано со значительными изменениями синтаксической конструкции предложения. [Fox 2002]. До сих пор в данной работе мы рассматривали только подходы к SMT использующие в процессе перевода прямые соответствия между словами исходного и целевых языков или короткие последовательности слов. Этот подход не очень эффективен если возникает необходимость в осуществлении грамматических трансформаций в рамках больших интервалов текста. Для решения этой задачи существует метод статистического машинного перевода который базируется на представлении структуры предложения в виде дерева зависимостей. Все системы в которых используется дерево зависимостей существенно отличаются от PSMT и других систем основанных на строках во всём что касается процесса перестановок. В отличие от PSMT в рамках которого рассматриваются все возможные варианты перестановок не нарушающих эвристических ограничений которые затем оцениваются посредством набора отдельных моделей перестановок в системах перевода по деревьям грамматические трансформации неразрывно связаны с процессом перевода а входные перестановки имеют место только тогда когда они соответствуют используемой в системе модели перевода.
II.2.1 Статистический машинный перевод основанный на иерархических фразах
В статистическом машинном переводе по иерархическим фразам HSMT вероятностная синхронная контекстно-зависимая грамматика извлекается напрямую из параллельного двуязычного корпуса. Правила преобразований в HSMT лингвистически немотивированы и оперируют всего двумя общими нетерминальными символами — X и S [Chiang 2005]. Правила перевода в HSMT могут включать как терминальные и нетерминальные символы с помощью которых воспроизводятся грамматические трансформации так и исключительно терминалы которые соответствуют дословному переводу. Кроме того HSMT всегда включают в себя так называемые правила объединения glue rules функция которых состоит в том чтобы соединять переведённые блоки предложений в непрерывное единство вне зависимости от их содержания. По аналогии с PSMT правила перевода извлекаемые в процессе трансформаций не должны превышать определённую длину кроме того правила подвергаются оценке максимального правдоподобия.
Декодинг в HSMT происходит по схеме основанной на алгоритме синтаксического анализа строки Кока – Янгера – Касами и включает в себя лучевой поиск и встроенную модель целевого языка. Структура предложения целевого языка выстраивается не слева направо как в PSMT а снизу вверх в соответствии со структурой дерева вывода. Лингвистически немотивированные перестановки между соседними фразами в HSMT осуществляются только через частично лексикализованные правила что является коренным отличием от моделей ориентированных на синтаксис в которых перестановки определяются правилами содержащими только терминальные символы например . Таким образом совершенно очевидно что модель HSMT больше подходит для аналитических языков — китайского и английского к примеру — чем для языков имеющих тенденцию к флективному выражению грамматических значений русский немецкий семитские языки.
Несмотря на то что иерархические модели нацелены на решение проблем связанных с рекурсивностью языка и феноменом грамматических трансформаций на практике зачастую оказывается что полученные правила перевода неприменимы из-за своей зашумленности или ограниченности контекста. Кроме того ограничение span constraint накладывается и на максимальное количество слов во фразе исходного языка которое может быть представлено нетерминальным символом в процессе декодирования. Значение этого параметра в современных системах HSMT варьируется от 10 до 15 поскольку большие величины негативно сказываются на скорости и качестве работы системы машинного перевода.
Существует несколько дополнений к оригинальной концепции HSMT призванных повысить качество перевода. Во-первых стоит упомянуть предложенную де Гиспертом и соавторами концепцию shallow-n грамматик суть которой состоит в том что все перестановки в рамках системы машинного перевода осуществляются согласно требованиям конкретной языковой пары [de Gispert et al. 2010]. В shallow-1 грамматике к примеру взятый из классического иерархического подхода нетерминальный символ X замещается двумя различными нетерминалами — XH отвечающим за порождение иерархических фраз и XP отвечающим за порождение лексических фраз. Все символы X в правой части иерархических правил заменяются на XP и таким образом пропуски в иерархических фразах могут быть заполнены только соответствующими лексическими фразами
Другим возможным вариантом включения модели перестановок в HSMT является представление её в виде дополнительной целевой функции. К системе HSMT добавляется общее правило перестановки фраз а для определения необходимости перестановки двух фраз используется классификатор построенный по методу максимальной энтропии [He Meng Yu 2010]. Особенность классификатора заключается в том что он использует не данные целой фразы а лишь некоторые её характеристики например первое и последнее слово или частеречную разметку фразы как исходного так и целевого языка.
В процессе развития HSMT предпринимались попытки дополнить модель информацией полученной из дерева синтаксического анализа исходной фразы. Чанг [Chiang et al. 2007] предложил ввести в систему перевода целевую функцию которая выбирает из множества правил перевода то которое полностью соответствовало бы главным членам предложения. Несмотря на очевидную простоту это решение никоим образом не влияло на качество перевода. Основываясь на работе Чанга Мартон и Резник [Marton Resnik 2008] разработали особые функции для групп подлежащего и сказуемого которые позволили существенно улучшить производительность системы перевода. Гао Коэн и Бёрч [Gao Koehn Birch 2011] вывели из дерева зависимостей следующие целевые функции имеющие прямое отношение к грамматическим трансформациям
• Ориентирующаяся на зависимости модель определяет должен ли меняться порядок главного и зависимого слова в процессе перевода используя классификацию по методу максимальной энтропии
• Штраф за зависимости срабатывает каждый раз когда главное и зависимое слово переводятся согласно разным правилам перевода.
II.2.2 Статистический машинный перевод основанный на деревьях небольшой глубины
Процесс перевода в системах основанных на синтаксических деревьях небольшой глубины [Quirk Menezes Cherry 2005] контролируется зависимостями в исходном предложении. В таких системах единицей перевода является пара соединённых подграфов синтаксические деревья небольшой глубины treelet извлечённых из пары деревьев синтаксических зависимостей исходного и целевого предложения . Под синтаксическими деревьями небольшой глубины в этом случае подразумеваются связанные зависимостями группы слов. Системы на синтаксических деревьях небольшой глубины как и системы основанные на иерархических фразах могут воспроизводить фразы в которых требуются грамматические трансформации на большом интервале при этом для определения структуры предложения они полностью опираются на обучаемый синтаксический анализатор.
Грамматические трансформации определяются парой только отчасти поскольку последние могут не полностью совпадать с выходными данными узла синтаксического дерева. Это означает что в момент декодирования все возможные перестановки оцениваются отдельной дискриминативной моделью натренированной на предсказывание положения дочернего узла по отношению к головному. Данная модель реализована в виде дерева принятия решений компонентами которого являются лексические единицы дочернего и головного узлов в исходном и целевом языке частеречная разметка дочернего и головного узлов позиция дочернего узла по отношению к головному в исходном предложении. Таким образом модель перестановок отделена от лексической выборки что делает её очень гибкой однако приводит к увеличению поискового пространства и как следствие к высокому шансу поисковых ошибок.
Для решения этой проблемы алгоритм перестановок деревьев небольшой глубины дополняется шаблонами порядка зависимостей [Menezes Quirk 2007]. Шаблон порядка представляет собой нелексикализованное правило которое определяет перестановку узла и всех его дочерних узлов основываясь на их частеречной разметке. Для каждого нового предложения совмещаются подходящая пара деревьев небольшой глубины и шаблон порядка из которых выводятся лексикализованные правила перевода для этого предложения. После этого посредством алгоритма анализа схем аналогичным тому что используется в HSMT производится декодирование. Вероятность деревьев небольшой глубины и шаблонов порядка оцениваются по методу максимального правдоподобия.
II.3 Грамматические трансформации как часть пре- или постпроцессинга
Грамматические трансформации являются одной из сложнейших подзадач в процессе статистического машинного перевод поскольку в процессе декодирования лингвистическая информация о грамматической структуре как исходного так и целевого предложения не учитывается вовсе или учитывается весьма слабо. Существует ряд подходов к решению этой проблемы см. рисунок 2.2 которые в целом можно разделить на две группы по тому на каком этапе осуществляются перестановки — до или после лексического перевода. Иными словами проблема перестановок решается в рамках пре- или постпроцессинга переводимого предложения.
Существует множество различных стратегий перестановок в рамках пре-процессинга. Например в рамках детерминированного пре-процессинга [Nießen Ney 2001 Wang Collins Koehn 2007 Yang et al. 2012] изменение порядка слов направлено на нахождение оптимальной последовательности слов для каждого входного предложения которое затем переводится монотонно или с низким пределом искажений. Недетерминированный пост-процессинг [Zens Och Ney 2002 Zhang Zens Ney 2007 Niehues Kolss
Рис. 2.2 Источник [Sudoh et al. 2011]
2009] в свою очередьпредставляет альтернативные варианты перестановок в виде решёток слов или набора деревьев зависимостей которые затем обрабатываются монотонным как правило n-граммным декодером. Гибридный подход предложенный в [Hardmeier Bisazza Federico 2010 Bisazza Pighin Federico 2012] использует набор правил для генерации нескольких наиболее вероятных вариантов перестановок с учётом особенностей характерных для конкретной языковой пары. Полученные решётки слов затем преобразуются с помощью декодера который выполняет дополнительные необходимые перестановки на уровне фразы.
Грамматические трансформации в рамках пре-процессинга могут быть обусловлены как заранее заданными лингвистически мотивированными правилами так и алгоритмами машинного обучения. В первом случае правилами определяются перестановки узлов в дереве синтаксических зависимостей или небольших синтаксически связанных частей предложения. В частности в [Collins Koehn Kucerova 2005] в систему статистического машинного перевода с немецкого на английский на этапе предварительной обработки текста вводятся шесть правил определяющих позицию глагола приглагольных элементов и отрицательных частиц таким образом чтобы в результате применения этих правил к дереву непосредственных составляющих оно было организованно в порядке основных элементов предложения свойственном английскому языку. В [Xu et al. 2009] предлагается вводить в систему перевода с английского языка на язык с основным порядком слов SOV например корейский японский или хинди правила на основе зависимостей которые бы трансформировали исходное предложение так чтобы порядок слов в нём был характерен для целевого языка. Модели пре-процессинга основанные на исходных данных обучаются на паре где — предложение исходного языка а — вариант перестановок для этого предложения полученный из предложения целевого языка путём пословного выравнивания. Такие модели обычно требуют некоторой лингвистической аннотации исходного предложения будь то синтаксическое дерево [Xia McCord 2004 Lerner Petrov 2013] небольшие синтаксически связанные части предложения [Zhang Zens Ney 2007] или частеречная разметка [Rottmann Vogel 2007]. В целом можно выделить две проблемы характерные для грамматических трансформаций как части предварительной обработки текста во-первых это адекватность воспроизведения структуры предложения характерной для целевого языка во-вторых это качество работы парсера использующего обученную модель пре-процессинга.
Менее популярным направлением исследований в современной лингвистике являются грамматические трансформации как часть постобработки текста. В [Sudoh et al. 2011] предлагается производить грамматические трансформации над предложением целевого языка после процесса монотонного перевода путём применения к нему одноязычной фразовой модели языка. Среди других возможных вариантов следует отметить предложенное в [Chen Cettolo Federico 2006] использование шаблонов перестановок основанных на частеречной разметке. В системе перевода предложенной в [Chang Toutanova 2007] для генерации набора n вариантов порядка слов в переведённом предложении используется модель перестановок основанная на дереве зависимостей.
II.4 Методики оценивания качества перестановок
Автоматическая оценка качества перевода является очень важным этапом статистического машинного перевода поскольку существует множество способов верно передать смысл исходного предложения на целевом языке. Обычно критерием оценки для систем статистического машинного перевода служит степень схожести полученного в результате их работы с переводом выполненным человеком. Такой подход предоставляет лингвистам возможность с помощью быстрой автоматической метрики оценить работу системы и найти её слабые места даже несмотря на то что он имеет явные недостатки в частности очень грубо усредняет разнообразие языковых конструкций целевого языка. Быстрая оценочная метрика также используется для автоматической настройки весов целевых функций например для минимизирования процента ошибок во время обучения [Och 2003]. Оценка машинного перевода путём сравнения с переводом выполненным человеком является активно исследуемой областью машинного перевода. В этом разделе мы рассмотрим две широко распространённые метрики общего назначения BLEU и METEOR и опишем несколько метрик ориентированных на перестановки.
BLEU bilingual evaluation understudy [Papineni et al. 2001] — оценка основанная на лексическом совпадении фактически являющаяся стандартом определения качества статистического машинного перевода. В рамках данного метода схожесть между вариантом перевода предоставленным системой и переводом выполненным человеком измеряется посредством пересекающихся n-грамов где n обычно варьируется от 1 до 4. Для каждого значения n на всей тестовой выборке предложений вычисляются оценки модифицированной точности от которых потом берётся среднее геометрическое. Полученная оценка умножается на штраф за краткость который учитывает разную длину переводов. BLEU также может быть использован для оценки различия порядка слов в разных языках например в [Al-Onaizan Papineni 2006] было выдвинуто предложение вычислять оценку BLEU для сравнения переведённого на целевой язык предложения e и варианта перестановки e основывающимся на синтаксической структуре исходного языка. Тем не менее использование n-грамов в качестве решения проблемы оценки перестановок ограничено следующими факторами во-первых учитываются только поверхностные соответствия без привлечения морфологических данных и синонимичных структур во-вторых не учитывается абсолютное позиционирование слов в предложении имеет значение только их относительная близость.
В некоторой степени вышеозначенные проблемы нашли решение в оценке METEOR [Banerjee Lavie 2005] основывающейся на характерных для моделируемого языка модулей стемминга и синонимичности служащих для преодоления проблемы поверхностной оценки схожести. METEOR оценивает правильность порядка слов используя фрагментационный штраф пропорциональный самому меньшему количеству частей на которые можно разделить вариант машинного перевода чтобы совместить его с переводом за авторством человека. Эту величину можно интерпретировать как количество пропусков или прыжков между словами которое читателю-человеку пришлось бы совершить чтобы восстановить правильный порядок слов в переводе. Как следствие данная оценка не различает короткие и длинные ошибки в перестановках.
Неадекватность оценки порядка слов средствами BLEU и METEOR была продемонстрирована в [Birch Osborne Blunsom 2010] где был приведён показательный пример продемонстрированный на рисунке 2.3. Предполагается что порядок слов в примере переведённом человеком монотонен и что машинный перевод и перевод выполненный человеком содержат одни и те же слова. Обе метрики оценивают a ниже чем b хотя в a неправильное расположение имеют всего два соседних слова а в b поменялись местами две половины предложения.
Для того чтобы обойти эти ограничения было предложено напрямую измерять схожесть между перестановками которые необходимо совершить человеку при переводе исходного предложения и перестановками которые осуществил декодер в процессе перевода [там же]. На практике это осуществляется конвертированием выравнивания слов в перестановки и вычислением расстояний между ними. Среди всех возможных метрик лучше всего соотносился с человеческой оценкой квадратный корень из коэффициента корреляции Кенделла. Изначально нормализованная коэффициента корреляции являлась оценкой разобщенности случайных величин. К примеру в случае если дан набор из n элементов и две перестановки π и σ расстояние K соответствует числу противоречащих пар т.е. пар элементов относительное расположение которых отличается в двух перестановках нормализованному общим числом упорядоченных пар элементов
Извлечение квадратного корня из K позволяет получить функцию обладающей большей дискриминативностью при перестановках в пределах небольшого интервала т.е. хорошо работающую для языковых пар с одинаковым порядком слов [там же]. Наконец рассчитывается перестановочная оценка Кенделла Kendall Reordering Score KRS — положительное число от 0 до 1 которое вычисляется вычитанием вышеупомянутой величины из единицы и умножением результата на штраф за краткость brevity penalty BP который учитывает различие в длинах машинного перевода и перевода выполненного человеком
Штраф за краткость соответствует аналогичному штрафу в BLEU с тем отличием что для KRS он вычисляется на уровне предложения. В случае если существует несколько переводов выполненных человеком для каждого предложения учитывается перевод набравший наибольшую оценку. Среднее всех оценок KRS для отдельных предложений даёт глобальный рейтинг KRS для данного тестового набора.
Снова обратимся к рисунку 2.1. Вариант а наберёт более высокий KRS чем вариант б 0.8509 против 0.2546. В [Birch and Osborne 2011] было предложено линейно интерполировать метрику KRS с BLEU для получения так называемого LRscore и показано как эта составная метрика может быть использована для оптимизации весов целевых функций системы PSMT.
В смежной работе [Bisazza and Federico 2013] отмечается что некоторые классы слов например глаголы играют более важную роль для определения общей структуры предложения. На этом основан вариант KRS который реагирует только на позиционирование определённых слов т.е. учитывает вес слова в предложении. Предположим что каждое слово fi имеет вес λi тогда оригинальную формулу KBS надо модифицировать следующим образом
Еще один подход к оценке перестановок предлагающий напрямую изменять перестановки между машинным переводом и переводом выполненным человеком и тем самым убирающий необходимость выравнивать слова во входном и выходном предложении называется RIBES и предложен в [Isozaki et al. 2010]. Ограничение такого подхода состоит в том что в оценке участвуют только одинаковые слова. Во избежание данного ограничения длина перестановки умножается на оценку точности слова что штрафует вариант машинного перевода содержащий слишком мало слов из перевода выполненного человеком. Как бы то ни было итоговая метрика показывает разные результаты в зависимости от лексического выбора а не от перестановки.
В [Talbot et al. 2011] представлена еще одна метрика направленная на оценку перестановок которая называется Fuzzy reordering score FRS. Так же как и KRS она не зависит от лексического выбора и измеряет сходство между грамматическими трансформациями в переводе выполненном человеком и в переводе выполненном системой SMT. В отличие от KRS где между перестановками в двух предложениях измеряется коэффициент корреляции Кенделла в FRS вычисляется минимальное количество частей на которые надо поделить результат работы SMT чтобы произвести выравнивание с перестановками сделанными человеком что соотносится с фрагментационным штрафом из метрики METEOR за исключением того факта что выравнивание производится между перестановками а не между переводами. Как и METEOR FRS не различает коротких и длинных ошибок в перестановках.
В работе [Stanojevic Simaan 2014] обсуждается иерархический подход к оценке перестановок где последовательности слов могут быть рекурсивно сгруппированы в более крупные блоки. Перестановки между переводом SMT и базисным переводом разлагаются в дерево перестановок которые дополняется отдельной метрикой учитывающей всевозможные разложения перестановки на дерево так называемый лес перестановок. Это рекурсивно задаёт меньшую важность перестановкам в нижних узлах дерева совершаемым в пределах меньшего интервала. Иерархические метрики перестановок показывают больше сходства с переводом выполненным человеком чем метрики основанные на строках такие как коэффициент корреляции Кенделла.
Выводы по главе II
Исходя из того что статистический машинный перевод в качестве фундаментального источника данных использует двуязычные корпуса текстов можно заключить что эмпирический подход в данном методе превалирует над теоретическим поскольку в нём широко используются алгоритмы машинного обучения что позволяет системе опираться как на уже заданный блок правил так и на правила выведенные рекурсивно. Из этого следует что введение алгоритмов определяющих грамматические трансформации на всех этапах перевода является достаточно эффективным способом улучшить работу системы статистического машинного перевода.
Два ключевых подхода к статистическому машинному переводу — по фразам PSMT и по иерархическим структурам в частности по деревьям HSMT имеют некоторые отличия в методе моделирования грамматических трансформаций. Несмотря на то что оба метода предполагают включение целевых функций перестановок в модуль грамматических трансформаций в PSMT как правило лингвистическая аннотация не используется ни при анализе исходного предложения ни при синтезе целевого. В HSMT напротив частеречная разметка и дерево синтаксической структуры как исходного так и целевого предложений являются базисом для совершения перестановок. Кроме того необходимо также отметить что в PSMT правила трансформаций задаются заранее а в HSMT выводятся рекурсивно. Из этого можно сделать следующий вывод использование PSMT оправдано в том случае если языковая пара состоит из близких по структуре языков в противном случае для более адекватного перевода необходимо использовать HSMT.
Грамматические трансформации осуществляются как непосредственно до процесса перевода так и сразу после него. Перестановки как часть пре-процессинга характеризуются тем что могут как быть заданы на основании лингвистических знаний так и носить вероятностный характер. Кроме того в данном случае алгоритмы грамматических трансформаций применяются к исходному предложению выстраивая составляющие его слова в порядке характерном для целевого языка. Грамматические трансформации в процессе постобработки как правило требуют более глубокого лингвистического анализа целевого предложения например частеречной разметки или дерева синтаксической структуры и могут осуществляться средствами фразовой модели целевого языка. Очевидно что решение проблемы грамматических трансформаций в рамках пре-процессинга требует меньших вычислительных ресурсов а следовательно является более популярным несмотря на то что перестановки при постобработке более адекватно воспроизводят синтаксическую структуру целевого языка.
Поскольку как было упомянуто выше эмпирический подход к статистическому машинному переводу является основным то единственным возможным вариантом оценки качества работы системы в том числе и адекватности проведённых в процессе перевода грамматических трансформаций является введение оценивающих метрик. Наиболее популярные метрики BLEU и METEOR отражают то насколько перевод выполненный автоматически похож на перевод выполненный человеком. Основной проблемой использования современных метрик является то что они не справляются с проблемой снятия лексической и синтаксической синонимии в процессе перевода что приводит к их неспособности адекватно отражать вариативность синтаксических конструкций целевого языка.
Глава III. Построение системы статистического машинного перевода
В данной работе система статистического машинного перевода по фразам работающая с языковой парой французский-английский создана с использованием следующих инструментов
• Moses — открытый движок для создания систем статистического машинного перевода разработанный Филиппом Коэном и другими [Koehn et al. 2007].
• Giza++ — часть свободно распространяемого набора инструментов для создания статистических систем машинного перевода EGYPT разработанного в Центре обработки языка и речи университета Джона Хопкинса в 1999 г. [Och Ney 2003].
• Языковая модель KenLM — свободно распространяемая языковая модель разработанная в университете Карнеги-Мелона под руководством Кеннета Хэфилда [Heafield 2011] и интегрированная в движок Moses.
• Корпус Europarl — крупнейший открытый мультиязычный параллельный корпус разрабатываемый исследовательской группой Эдинбургского университета под руководством Филиппа Коэна [Koehn 2005]. Материалом для создания корпуса служит документация заседаний Европейского парламента на языках стран-участниц Европейского союза в своей последней редакции корпус содержит около 50000000 слов для каждого языка.
• Вычислительные ресурсы Лаборатории эволюционной геномики МГУ им. М.В. Ломоносова узел вычислительного комплекса Макарьич 2 x Intel® Xeon® CPU E5-2650 v2 @ 2.60GHz total 32 cores 128 Gb ECC RAM операционная система Scientific Linux release 6.6 Carbon.
Постановка эксперимента заняла приблизительно 150 часов.
III.1 Подготовка системы к работе
Процесс обучения системы статистического машинного перевода Moses состоит из следующих этапов
I. Подготовка корпуса
a. Создание параллельного корпуса — одного и того же набора предложений представленного на двух языках
b. Выравнивание параллельного корпуса на уровне предложений
В зависимости от конкретного набора данных дальнейшие шаги могут отличаться. В рамках данного эксперимента мы использовали франко-английский корпус текстов заседаний Европейского парламента.
c. Токенизация корпуса — вставка пробелов между отдельными частями предложения например между словами и знаками препинания
d. Переведение всех символов корпуса в нижний регистр. Выполнение данного шага рекомендуется для всех корпусов Европейского парламента [Koehn 2005]
e. Очистка корпуса удаление пустых строк XML-разметки и других данных не имеющих отношения к собственно тексту на котором будет обучаться система
f. Удаление предложений длиннее 80 слов в целях оптимизации обучения
II. Построение языковой модели
a. Построение языковой модели целевого языка на основе подготовленного корпуса. В рамках данного эксперимента мы использовали триграммную модель KenLM для английской части корпуса
b. Переведение языковой модели в бинарный формат для ускорения загрузки системы
III. Обучение системы статистического машинного перевода
a. Выравнивание языковой модели с помощью утилиты GIZA++
b. Выделение фраз и их оценка
c. Создание лексикализованных таблиц перестановок
d. Создание файла конфигурации системы перевода Moses
IV. Подстройка системы перевода
Под подстройкой понимается нахождения оптимальных весов целевых функций выбранной языковой модели. Оптимальными считаются такие веса при которых качество перевода на небольшом наборе параллельных предложений максимально. Качество перевода измеряется при помощи оценки BLEU. В качестве корпуса для подстройки мы использовали франко-английский корпус газетных заголовков [Tiedemann 2012].
a. Подготовка набора для подстройки аналогична шагам 3–6 токенизация приведение к нижнему регистру и очистка
b. Запуск автоматического процесса перевода на натренированной системе оценка перевода и подстройка весов
II. Оптимизация скорости загрузки системы.
a. Бинаризация фразовых таблиц и лексикализованных таблиц перестановок. Данных шаг необходим поскольку загрузка модели в оперативную память занимает много времени а также требует значительных ресурсов в нашем эксперименте при загрузке в оперативную память было использовано более 100 Гб.
В процессе настройки системы были использованы следующие целевые функции
• UnknownWordPenalty — штраф за незнакомое слово
• WordPenalty — штраф за разницу длины исходного и целевого предложений
• PhrasePenalty — логарифмическая оценка количества фраз из обучающего корпуса использованных в процессе перевода
• PhraseDictionaryCompact — бинаризированные фразовые таблицы
• LexicalReordering — модуль лексических перестановок
• Distortion — модуль грамматических трансформаций.
III.2 Тестовый набор предложений
Для тестирования данной системы был создан набор из 25 предложений отражающих наиболее частотные проблемы возникающие при переводе с французского языка на английский
• Двойное отрицание — во французском языке отрицательные частицы ne… pas за редким исключением окружают глагол. Именно это отличие указанное в главе I в разделе Профиль порядка слов является одним из ключевых проблем грамматических трансформаций при переводе с французского на английский на уровне предложения
• Разрешение постпозиции прилагательного — во французском языке прилагательные следуют за определяемым словом а в английском языке они ему предшествуют
• Причастные и герундиальные конструкции — данная категория проверяет адекватность машинного перевода французских конструкций en + герундий и причастных оборотов
• Генитивные конструкции — предложения из данной категории проверяют способность системы разрешать вариативность в выражении генитивной конструкции в английском языке
• Согласование времён — проверка на воспроизведение временных отношений внутри сложного предложения при переводе.
III.3 Оценка качества грамматических трансформаций
В качестве оценки качества грамматических трансформаций мы выбрали метрику BLEU поскольку она достаточно проста и её вычисление не требует дополнительных вычислительных ресурсов. Алгоритм по которому мы высчитывали оценку BLEU в рамках данного эксперимента представлена на рисунке 3.1. Для каждого входного предложения из тестовой выборки мы выполнили два перевода
• на обученной но не подстроенной системе — веса всех целевых функций перестановок равнялись 0.3
• на подстроенной системе — веса целевых функций перестановок были рассчитаны для каждого отдельного предложения из тестового набора.
Затем для каждого варианта перевода мы рассчитали оценку BLEU по алгоритму указанному на рисунке 3.1. Исходные предложения референсный перевод выполненный человеком варианты машинного перевода для каждого предложения а также оценки BLEU даны в таблице 3.1.
В целом можно заметить что оценка BLEU для подстроенной системы и системы без подстроек отличаются незначительно при этом нередко оценка перевода системы с исходными настройками оказывалась выше. Минимальная оценка варианта перевода как настроенной системы
Таблица 3.1 Итоговая сводка переводов с оценками
Исходное предложение Референс целевого предложения Машинный перевод
1 строка – исходная система 2 строка – подстроенная система Оценка BLEU
n’ayez pas peur do not be aftaid . do you not afraid 0.0
do you not afraid 0.0
je n’a les jamais vu i have never seen them . i do not have the ever seen . 0.0
i do has ever seen . 0.0
je ne veux jamais grandir . i never want to grow up . i will never grow . 0.0
i will never grow . 0.0
il n’y avait que des etudiants . there were only students . it was that students . 0.25
it was that students . 0.25
ne lui dis pas de venir do not tell him to come . does it not to come . 0.4
do not say to come 0.4
on nous a servi un repas excellent . we were served an excellent dinner . we have been a meal . 0.0
we have served a meal excellent . 0.0
il était un homme très intelligent poli et gentil mais on pourrait le appeler faible et vulnérable . he was very clever polite and friendly man but one would call him weak and vulnerable . it was a very sensible polite and kind but you could call a weak and vulnerable . 0.294
it was a very sensible poli and nice but we could call the weak and vulnerable . 0.235
il est un ancien président de la société de histoire ancienne . he is a former president of the ancient history society . it is a former president of the past . 0.625
it is a former president of the society of old story . 0.455
j’ai choisi une vieille voiture américaine magnifique . i chose a magnificent old american automobile . i have chosen an old car wonderful . 0.0
i have chosen an old car american magnificent . 0.0
les femmes les plus âgées devraient partir avant les autres . the oldest women should leave before the others . women elderly should leave before the other . 0.375
elderly women should leave before the other . 0.571
il gagne sa vie en vendant des livres . he earns a living by selling books . it earns his living by selling books . 0.571
it earns his life in selling books . 0.286
étant occupé je l’ai ignoré . being busy i ignored him . as i have been ignored . 0.0
being occupied i have ignored . 0.167
je trouve ce film amusant . i find this film amusing . i find this amusing . 0.75
i find this amusing . 0.75
je vois des gens portant des sacs . i see some people carrying bags . i see people with shopping bags . 0.333
i see people with shopping bags . 0.333
je le ferai sans qu’il le sache . i will do it without his knowing it . i shall do so without the consent . 0.0
i shall do without it known . 0.0
la maison de mes parents est près de paris . my parents ’ house is near paris . the house of my parents is near paris . 0.5
the house of my parents is near paris . 0.5
le retard de le train est dû à un problème technique . the train ’ s delay is due to a technical problem . the delay in the train is due to a technical problem . 0.636
the delay of the train is due to a technical problem . 0.636
elle est la fille de la femme qui vit à côté . she is the daughter of the woman who lives next door . it is the daughter of women living side by side . 0.3
it is the daughter of women living in hand . 0.333
le chapeau de votre femme est sur la table . your wife ’ s hat is on the table . the days of your wife is on the table . 0.556
the buck your woman is on the table . 0.5
est-ce ton tour non c’est celui de mary . is it your turn no it is mary ’ s . is your turn no this is that of mary . 0.364
is your turn no this is that of mary . 0.364
si je faisais du français la année prochaine j’irais à paris . if i were to take french next year i would go to paris . if i was the french next year i could go to paris . 0.615
if i was the french next year i go to paris . 0.667
tu réussiras si tu étudies beaucoup . you will succeed if you study a lot . you will be able if you étudies very much . 0.3
you will be able if you étudies very much . 0.3
le vol n’est pas encore arrivé si j’ai bien entendu . the flight has not arrived yet if i heard correctly . the flight that has not yet arrived if i am of course . 0.308
the flight is not yet arrived if i have of course . 0.231
elle ne savait pas les détails si elle vous a dit cela . she did not know the details if she told you that . it did not have the details if it told you this . 0.417
it did not have the details if it told you this . 0.417
s’il ne commence pas immédiatement il ne aura pas fini avant midi . if he does not start immediately he will not have finished before noon . if it does not start immediately it will not be finished before lunch . 0.429
if it does not start immediately it will not finished before lunch . 0.462
машинного перевода так и системы без настроек равняется нулю максимальная — 0.75. Мы также рассчитали среднюю арифметическое оценок BLEU для всех переведённых пар предложений где хотя бы одна из оценок была ненулевой и получили следующие результаты
• система с исходными настройками — 0.446
• подстроенная система — 0.427.
На диаграммах 3.1 и 3.2 показано распределение оценок BLEU для переводов тестового набора предложений исходной и подстроенной системы соответственно.
Диаграмма 3.1 Диаграмма 3.2
Оценка BLEU для переводов Оценка BLEU для переводов
исходной системы подстроенной системы
III.4 Интерпретация результатов
Проведённый эксперимент показал что полученная система статистического машинного перевода по фразам не в состоянии адекватно и точно передать синтаксическую структуру исходного предложения в процессе перевода. Что касается лексической составляющей перевода то в некоторой части полученных предложениях присутствуют пропуски слов. Принимая во внимание оценку результатов перевода метрикой BLEU можно сделать вывод что наибольшие проблемы возникали при моделировании трансформации двойного отрицания во французском языке. Кроме того система в двух случаях из пяти не смогла произвести переупорядочивание определения по отношению к определяемому слову. Следует также обратить внимание что система показала удовлетворительные результаты в переводе длинных включающих в себя более девяти слов предложений. Мы выделяем следующие факторы влияющие на полученный результат
• Неверно подобранный обучающий корпус. Корпус на котором обучалась система статистического машинного перевода является специализированным и не может в полной мере репрезентировать стилистически нейтральную лексику как французского так и английского языков
• Триграммная языковая модель. Эксперимент показал что модель основанная на триграммах не слишком хорошо подходит для моделирования коротких предложений. Возможным решением этой проблемы является замена триграммов на биграммы
• Набор целевых функций перестановок. Опытным путём было установлено что изменение весов целевых функций не оказывает существенного влияния на качество перевода более того принимая в расчёт оценку BLEU можно с уверенностью сказать что до подстройки система значительно лучше справлялась с переводом коротких до девяти слов предложений. Таким образом единственным возможным способом улучшить качество перевода системы является введение дополнительных целевых функций.
Выводы по главе III
Создание системы статистического машинного перевода включает в себя такие важные этапы как создание и подготовка параллельного корпуса построение на его основе языковой модели целевого языка обучение и дальнейшая подстройка системы. Неотъемлемой частью создания системы является также оптимизация используемых вычислительных ресурсов. Качество работы системы перевода напрямую зависит от выполнения этих шагов.
В рамках данной работы нами была создана система франко-английского статистического машинного перевода. Согласно полученным в ходе эксперимента данным выбранный в рамках данной работы метод PSMT а также использованные открытые инструменты не позволяют в полной мере воспроизвести грамматические перестановки характерные для языковой пары английский-французский. Кроме того мы провели оценку переведённых предложений по метрике BLEU. Согласно данной оценке результат созданной в ходе эксперимента системы стоит признать удовлетворительным поскольку перевод в целом понятен и информативен поскольку среднее значение BLEU для всей системы ≈ 0.274 для сравнения последние разработанные системы статистического машинного перевода с французского на английский характеризуются средней оценкой BLEU чуть выше 0.30.
Проблемы с которыми мы столкнулись при попытке моделирования грамматических трансформаций в процессе перевода можно разделить на программные и аппаратные. К программным относятся выбор и обработка корпуса для обучения и подстройки системы подбор целевых функций перестановок и скрипты для обработки входного и выходного текста. К аппаратным проблемам относится в первую очередь нехватка вычислительных ресурсов. При условии решения указанных проблем можно существенно повысить производительность и качество перевода созданной в ходе эксперимента системы.
Заключение
Список использованной литературы
21. Chiang D. Hierarchical phrase-based translation D. Chiang Computational Linguistics. — 33 2. — 2007.
22. Collins M. Clause restructuring for statistical machine translation M. Collins P. Koehn I. Kucerova Proceedings of the 43th Annual Meeting of the Association for Computational Linguistics. — Ann Arbor Michigan 2005. — pp. 531–540.
23. Diamond J. The rise and fall of the third chimpanzee J. Diamond Butler and Tanner Ltd. — Frome Somerset UK 1991.
24. Dryer M. S. On the six-way of word order typology M. S. Dryer SiL 21. — 1997. — pp. 69–103.
25. Dryer M. S. Word Order M. S. Dryer Clause Structure Language Typology and Syntactic Description. — Vol. 1. — Cambridge University Press 2007.
26. Edinburgh system description for the 2005 IWSLT speech translation evaluation P. Koehn A. Axelrod A. Birch C. Callison-Birch M. Osborne D. Talbot Proc. of the International Workshop on Spoken Language Translation. — 2005.
27. Feng M. A source-side decoding sequence model for statistical machine translation M. Feng A. Mauser H. Ney Conference of the Association for Machine Translation in the Americas. — Denver Colorado USA 2010.
28. Fox H. Phrasal cohesion and statistical machine translation H. Fox Proceedings of the Conference on Empirical Methods in Natural Language Processing. — Philadelphia 2002. — pp. 304–311.
29. Galley M. Accurrate non-hierarchical phrase-based translation M. Galley C. D. Manning Human Language Technologies The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. — Los Angeles California 2010. — pp. 966–974.
30. Gao Y. Soft dependency constraints for reordering in hierarchical phrase-based translation Y. Gao P. Koehn A. Birch Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. — Edinburgh Scotland UK 2011. — pp. 857–868.
31. Hardmeier C. FBK at WMT 2010 Word lattices for morphological reduction amd chunk-based reordering C. Hardmeier A. Bisazza M. Federico Proceedings of the Joint Fifth Workshop on Statistical Machine Translation and Metrics. — Uppsala Sweden 2010. — pp. 88–92.
32. Hawkins J. A. Word order universals J. A. Hawkins. — Academic Press New York 1983.
33. He Z. Extending the hierarchical phrase based model with maximum entropy based btg Z. He Y. Meng H. Yu Conference of the Association for Machine Translation in the Americas. — Denver Colorado USA 2010.
34. Heafield K. KenLM Faster and Smaller Language Model Queries K. Heafield Proceedings of the 2011 Sixth Workshop on Statistical Machine Translation. — 2011. — pp. 187–197.
35. Hierarchical phrase-based translation with weighted finite-state transducers and shallow n-grams A. de Gispert G. Iglesias G. Blackwood E. R. Banga W. Byrne Computational Linguistics. — 36 3. — 2010. — pp. 505–533.
36. Knight K. Decoding complexity in word replacement translation models K. Knight Computational Linguistics. — 25 4. — 1999. — pp. 607–615.
37. Koehn P. Europarl A Parallel Corpus for Statistical Machine Translation P. Koehn MT Summit. — 2005. — pp. 79–86.
38. Koehn P. Statistical machine translation P. Koehn. — Cambrige University Press 2010.
39. Koehn P. Statistical phrase based translation P. Koehn F. J. Och D. Marcu Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics. — 2003.
40. Language translation apparatus and method of using context-based translation models A. L. Berger P. F. Brown S. A. Della Pietra V. J. Della Pietra A. S. Kehler R. L. Mercer. — USA 1996.
41. Lehmann W. P. A structural principle of language and its implications W. P. Lehmann. — Language 49 1973. — pp. 47–66.
42. Lehmann W. P. Syntactic typology studies in the phenomenology of language W. P. Lehmann. — University of Texas press Austin 1978.
43. Lerner U. Source-side classifier preordering for machine translation U. Lerner S. Petrov Proceedings of the EMNLP 2013. — 2013.
44. Marton Y. Soft syntactic constraints for hierarchical phrase-based translation Y. Marton P. Resnik Proceedings of ALC-08 HLT. — Columbus Ohio 2008. — pp. 1003–1011.
45. Menezes A. Using dependency order templates to improve generality in translation A. Menezes C. Quirk Proceedings of the Second workshop on Statistical machine translation. — Prague Czech Republic 2007. — pp. 1–8.
46. Moses Open Source Toolkit for Statistical Machine Translation P. Koehn H. Hoang A. Birch C. Callison-Burch M. Federico N. Bertoldi B. Cowan W. Shen C. Moran R. Zens C. Dyer O. Bojar A. Constantin E. Herbst Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions. — Prague Czech Republic 2007. — pp. 177–180.
47. N-gram-based machine translation J. B. Mariño R. E. Banch J. M. Crego A. de Gispert P. Lambert J. A. R. Fonollosa M. R. Costa-Jussà Computational Linguistics. — 32 4. — 2006. — pp. 527–549.
48. Niehues J. A POS-based model for long-range reorderings in SMT J. Niehues M. Kolss Proceedings of the Fourth Workshop on Statistical Machine Translation. — Athens Greece 2009. — pp. 206–214.
49. Nießen S. Morpho-syntactic analysis for reordering in statistical machine translation S. Nießen H. Ney Proceedings of the MT Summit VIII Machine Translation in the Information Age. — Santiago de Compostela Spain 2001. — pp. 247–252.
50. Och F. J. A Systematic Comparison of Various Statistical Alignment Models F. J. Och H. Ney Computational Linguistics. — 29 1. — 2003. — pp. 19–51.
51. Och F. J. An efficient method for determining bilingual word classes F. J. Och Proceedings of the 9th Conference of the European Chapter of the Association for Computational Linguistics. — 1999. — pp. 71–76.
52. Och F. J. Minimum error rate training in Statistical Machine Translation F. J. Och Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics. — 2003. — pp. 160–167.
53. Och F. J. Statistical Machine Translation F. J. Och H. Ney EAMT Workshop. — Ljubljana Slovenia 2000. — pp. 247–252.
54. Post-ordering in statistical machine translation K. Sudoh X. Wu K. Duh H. Tsukada M. Nagata MT Summit XIII the Thirteenth Machine Translation Summit. — Xiamen China 2011. — pp. 316–323.
55. Quirk C. Dependency treelet translation Syntactically informed phrasal SMT C. Quirk A. Menezes C. Cherry Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics. — Ann Arbor Michigan 2005. — pp. 271–279.
56. Rottmann K. Word reordering in statistical machine translation with a pos-based distortion model K. Rottmann S. Vogel Theoretical and Methodological Issues in Machine Translation. — Skövde Sweden 2007.
57. Stanojevic M. Evaluating word order recursively over permutation-forest M. Stanojevic K. Sima’an Proceedings of the SSST-8 Eighth Workshop on Syntax Semantics and Structure in Statistical Translation. — Doha Quatar 2014. — pp. 138–147.
58. The mathematics of statistical machine translation P. F. Brown S. A. Della-Pietra V. J. Della-Pietra R. L. Mercer Computational Linguistics. — 19 2. — 1993. — pp. 263–313.
59. Tiedemann J. Parallel Data Tools and Interfaces in OPUS J. Tiedemann Proceedings of the 8th International Conference on Language Resources and Evaluation. — 2012.
60. Tillmann C. Word reordering and a dynamic programming beam search algorithm for statistical machine translation C. Tillmann H. Ney Computational Linguistics. — 29 1. — 2003. — pp. 97–133.
61. Translating with non-contiguous phrases M. Simard N. Cancedda B. Cavestro M. Dymetman E. Gaussier C. Goutte K. Yamada P. Langlais A. Mauser Proceedings of Human Language Technology Conference and Conference on Human Language Technologies and Conference on Empirical Methods in Natural Language Processing. — Vancouver British Columbia Canada 2005. — pp. 755–762.
62. Using a dependency parser to improve smt for subject-object-verb languages P. Xu J. Kang M. Ringgaard F. Och Proceedings of Human Language Technologies The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics. — 2009. — pp. 245–253.
63. Vennemann T. Analogy in generative grammar the origin of word order T. Vennemann Proceedings of the Eleventh International Congress of Linguists. — Il Mulino Bologna 1974.
64. Wang C. Chinese syntactic reordering for statistical machine translation C. Wang M. Collins P. Koehn Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. — Prague Czech Republic 2007. — pp. 737–745.
65. Xia F. Improving a statistical MT system with automatically learned rewrite patterns F. Xia M. McCord Proceedings of Coling 2004. — Geneva Switzerland 2004. — pp. 508–514.
66. Yahyaei S. Dynamic distortion in a discriminative reordering model for statistical machine translation S. Yahyaei C. Monz International Workshop on Spoken Language Translation. — Paris France 2010.
67. Zens R. A comparative study on reordering constraints in statistical machine translation R. Zens H. Ney Proceedings on the Workshop on Statistical Machine Translation. — 2003. — pp. 55–63.
68. Zens R. Phrase-based statistical machine translation R. Zens F. J. Och H. Ney 25th German Conference on Artificial Intelligence. — Aachen Germany 2002. — pp. 18–32.
69. Zhang H. Factorization of synchronous contex-free grammars in linear time H. Zhang D. Gildea Proceedings of SSST NAACL-HLT 2007 AMTA Workshop on Syntax and Structure in Statistical Translation. — Rochester New York 2007. — pp. 25–32.
70. Zhang Y. Chunk-level reordering of source language sentences with automatically learned rules for statistical machine translation Y. Zhang R. Zens H. Ney Proceedings of SSST NAACL-HLT 2007 AMTA Workshop on Syntax and Structure in Statistical Translation. — Rochester New York 2007. — pp. 1–8.